تشخیص احساسات گفتار با هوش مصنوعی
تشخیص احساسات گفتار با هوش مصنوعی – آیا ترس از سخنرانی در جمع با تعقیب شدن توسط خرس یکسان است؟
آیا بالا بردن ابرو نشان دهنده سرگرمی یا سردرگمی است؟
در سال 1995، روزالیند پیکارد، دانشمند و مخترع، ایده کامپیوترهایی را که توانایی تشخیص احساسات را توسعه می دهند در کتاب خود به نام “محاسبات عاطفی” معرفی کرد.
در چندین سال گذشته، سیستمهایی که از هوش مصنوعی استفاده میکنند «یادگیری» میکنند.
برای تشخیص و تشخیص احساسات انسانی از طریق مرتبط کردن احساساتی مانند خشم، شادی و ترس، با حرکات صورت و بدن، کلمات و لحن صدا.
اما آیا این سیستم ها قادر به درک تفاوت های ظریفی هستند که بین لبخند و پوزخند تفاوت قائل می شوند؟ آیا آنها می دانند که لبخند می تواند خشم را همراهی کند؟
کارشناسانی مانند استادیار Steinhardt Edward B. Kang هشدار می دهند که پاسخ منفی است.
کانگ، نویسنده مقاله تحقیقاتی “درباره عملکردها و سیاست های تشخیص احساسات گفتار هوش مصنوعی”. منتشر شده در کنفرانس ACM 2023 درباره انصاف، پاسخگویی و شفافیت، می نویسد که تشخیص احساسات گفتار (SER) “فناوری مبتنی بر فرضیات ضعیف در مورد علم احساسات است که نه تنها آن را از نظر فناوری ناقص بلکه از نظر اجتماعی نیز مضر می کند”.
همراه با انتقادات دیگر، او پیشنهاد میکند که سیستمهای کنونی نسخهای کاریکاتورشده از انسانیت را ایجاد میکنند و کسانی مانند افراد مبتلا به اوتیسم را که ممکن است به گونهای که این سیستمها آن را درک نمیکنند، احساس کنند، کنار میگذارند.
برای درک بهتر این کاستیها و پیامدهای آنها برای مراکز تماس، برنامههای دوستیابی و موارد دیگر، NYU News با کانگ در مورد نحوه سخنرانی هوش مصنوعی صحبت کرد.
تشخیص احساسات کار می کند – و نمی کند.
چگونه سیستم های هوش مصنوعی تشخیص احساسات را یاد می گیرند؟
ابتدا باید بپرسیم منظورمان از احساس چیست.
واقعیت این است که هیچ اجماع علمی در مورد آنچه که احساس در واقع نشان می دهد وجود ندارد.
آیا ما به یک تجربه شخصی اشاره می کنیم؟ یک پاسخ فیزیولوژیکی؟ مجموعه ای از حالت های مغز؟ یک احساس ذهنی؟ یا ترکیبی از اینها؟ دقیق ترین پاسخ این است که ما واقعاً نمی دانیم.
احساس ممکن است یک “روزانه” مفید و شاید ساده باشد. اصطلاح، اما از نظر علمی، نامرتب است.
همه ما می دانیم که لبخند همیشه به این معنی نیست که ما خوشحال هستیم.
مدتهاست که محققان استدلال کردهاند که برچسبهایی مانند “ترس” و “ترس” “شادی” «غمگینی» “خشم” “سورپرایز” و «انزجار» که برای ارجاع به تجارب عاطفی استفاده می کنیم، سیال هستند و با توجه به مجموعه ای از ویژگی های محدود قابل شناسایی نیستند.
مشکل این است که با توجه به ساختار یادگیری ماشین، که به تکنیک های آماری اشاره دارد که سیستم های به اصطلاح هوش مصنوعی را قادر می سازد “کار کنند،” احساس باید محدود و مشخص شود و قابلیت اندازه گیری آن نیز باید در کنار این ویژگی های قابل مشاهده درک شود.
برای ساخت سیستمهای هوش مصنوعی تشخیص احساسات و مجموعه دادههایی که زیربنای آنها هستند، این به طور سنتی شامل استخدام بازیگران انسانی برای انجام حالتهای چهره خاصی است.
یا صداهایی که به منظور نمایش کلیشه ای برخی از برچسب های عاطفی هستند – به عنوان مثال، لبخند زدن برای “شادی”; یا فریاد زدن برای “خشم.”
این اجراها به نمادهایی برای احساسات تبدیل می شوند، بزرگ می نویسند، که امکان همبستگی آماری بین ویژگی های قابل مشاهده مانند لحن و سرعت صدای فرد، و “احساس” مورد نظر را فراهم می کند.
با یک “برچسب” ساخته شدن. همانطور که می توان تصور کرد، این منجر به کاریکاتورهایی می شود که مسلماً یکی از پیچیده ترین ویژگی های بشریت است.
محدودیت ها و آسیب های مرتبط با این سیستم ها چیست؟ مزایای آن چیست؟
محدودیتهای سیستمهای هوش مصنوعی تشخیص احساسات این است که از نظر طراحی به سادهسازی هر چیزی که ما به عنوان احساس در مجموعه داده تعریف میکنیم، وابسته هستند.
به عبارت دیگر، آنها خیلی قابل اعتماد یا دقیق نیستند.
مضرات این است که هنوز هم می توان از آنها به عنوان نوعی نظارت عاطفی استفاده کرد.
به عنوان بخشی از تحقیقاتم، استفاده از تشخیص احساسات گفتار را در مراکز تماس بررسی کردم.
در اینجا، اپراتورهای مرکز تماس در مورد اینکه آیا به اندازه کافی خوشایند هستند یا نه، ارزیابی می شوند. اگر آنها به اندازه کافی مثبت ارزیابی شوند، می توانند پاداش های جبرانی دریافت کنند.
البته طرف مقابل، احتمالاً جریمه هایی برای عدم پایبندی به هنجارهای احساسی اعمال شده توسط سیستم SER است.
اگرچه سیستمهای هوش مصنوعی به این تز وابسته هستند که تعاریف عاطفی عینی وجود دارد، مجموعه دادههایی که بر اساس آنها آموزش داده میشوند چیز دیگری را نشان میدهند.
این مجموعه دادهها در نهایت بر اساس باورهای خالقان مجموعه دادهها و بازیگرانی که برای اجرای احساسات استخدام شدهاند ساخته میشوند – فرآیندهای ذهنی و دلخواه که از طریق آن افراد معدودی احساسات را تعریف و اجرا میکنند.
این تفاسیر از احساسات به عنوان حقیقت اصلی در این سیستمهای هوش مصنوعی تثبیت میشوند.
مزایای این سیستم ها فقط برای کسانی وجود دارد که مشمول ارزیابی آن نیستند.
به عنوان مثال، به مدیران یک ابزار و نقطه داده اضافی برای ارزیابی کارکنان ارائه می دهد.
حتی اگر آن نقطه داده لزوماً آن چیزی نباشد که نشان می دهد، سطحی از کنترل را برای کسانی که از آن برای ارزیابی دیگران استفاده می کنند، ارائه می دهد.
چه فناوری هایی در حال حاضر از تشخیص احساسات گفتار هوش مصنوعی استفاده و پیاده سازی می کنند؟
فناوریهای تجزیه و تحلیل صوتی AI SER و SER خارج از کاربرد آنها در مراکز تماس، به عنوان راهحلهایی برای زمینههای دارای ریسک بالاتر از جمله در امور مالی با پیشبینی پیشفرض وام، استخدام با پیشبینی موفقیت نامزدها، و حوزه پزشکی با غربالگری سلامت روان پیشنهاد میشوند.
تا آنجا که من می دانم، هنوز به طور گسترده در این بخش ها اجرا نشده است، اما به همین دلیل است که اکنون زمان صحبت در مورد آن است.
مایکروسافت قبلاً متعهد شده است که ویژگیهای تشخیص احساسات چهره را از فناوریهای تشخیص چهرهاش حذف کند، به همان دلایلی که من برای نقد SER از آن استفاده میکنم، یعنی اینکه یک اجماع علمی در مورد اینکه آیا تشخیص احساسات به کمک هوش مصنوعی میتواند در یک دستگاه انجام شود یا خیر وجود دارد.
روشی که قابل اعتماد، دقیق یا سازگار است. این موضوع باعث میشود که SER بهعنوان جایگزینی بالقوه برای تشخیص احساسات چهره ظاهر شود.
بر اساس مصاحبههایی که با متخصصان صنعت انجام دادهام، به نظر میرسد که SER برای برنامههای دوستیابی نیز پیشنهاد شده است، که ظاهراً کمک به ارائه تطابق بهتر بین افراد.
توصیه شما برای گنجاندن تشخیص احساسات در محصولات مصرفی چیست؟
توصیه شخصی من صادقانه این است که اصلاً این کار را نکنید.
به نظر من، این در بهترین حالت یک انتخاب «سرگرم کننده» ویژگی برای برنامههای کممخاطره مانند برنامههای خود نظارتی، و اگر به این صورت گنجانده شده است، باید مشخص شود که فقط برای اهداف لذتبخش است.
در بدترین حالت، من معتقدم هوش مصنوعی تشخیص احساسات یک کاربرد فناورانه از یک موضوع علمی بحث برانگیز است که برای تصمیم گیری های تغییر دهنده زندگی برای افرادی که کنترل کمی بر توسعه و استفاده از این سیستم ها ندارند، استفاده می شود.
نظارت مؤثر و پیامدهای جبران خسارت که در استفاده از SER در مراکز تماس مورد بررسی قرار میگیرد، تنها آغازی است برای اینکه چگونه میتوان از آن سوء استفاده کرد، زمانی که این فرض مشکلساز را پذیرفتیم که احساسات را میتوان به طور منظم به دادهها تقطیر کرد و زیرساخت داده یا آنچه ما مینامیم.
“هوش مصنوعی” را می توان برای تشخیص قابل اعتماد، دقیق و پیوسته احساسات مورد استفاده قرار داد.
آیا نظری در مورد اسباب بازی هایی دارید که از SER برای تعامل با کودکان استفاده می کنند؟
یکی از برنامههایی که به ذهن میرسد، یک ربات اسباببازی به نام Moxie است که از تشخیص احساسات چندوجهی هوش مصنوعی در تعامل با کودکان استفاده میکند.
بر اساس مقاله ای که توسط سازندگان آن منتشر شده است، معیارهای رفتاری که اسباب بازی ردیابی می کند، در درجه اول به حالات چهره و انتخاب کلمات مربوط می شود.
در اینجا، اگرچه انتخاب کلمات از نظر فنی از طریق گفتار از طریق یک میکروفون ضبط میشود، اما با SER متفاوت است، زیرا احتمالاً تجزیه و تحلیل کلمات ابتدا توسط یک مدل گفتار به متن که گفتار را به متن تبدیل میکند، و سپس قدرت میگیرد.
آن متن را تجزیه و تحلیل می کند تا کلمات خاصی مانند “خانواده” یا “دوست” به مفاهیمی مربوط می شود که به نظر آنها “مثبت” هستند. یا “منفی.»
این به طور کلی “تحلیل احساسات” نامیده می شود.
در این زمینه، و همچنین به دلایل مشابه تا حدودی بحث برانگیز است: کلمات به تنهایی به طور مداوم نشان دهنده “احساس” نیستند.
این مقاله بیان میکند که این اسباببازی ابتدا بهعنوان ابزاری برای حمایت از کودکان مبتلا به اختلالات رشد رفتاری ذهنی یا MBDD ساخته شد، اما درک من این است که اکنون به عنوان یک همراه یادگیری عمومیتر برای همه کودکانی که از ” توسعه مهارت های کل نگر،” که البته بازار آدرس پذیر Moxie را گسترش می دهد.
همکار من مارا میلز این پدیده ناتوانی را گامی به سوی حوزه های سودآورتر به عنوان “بهانه کمکی” نامیده است.
همانطور که در مقاله خود به اختصار بیان می کنم، کودکان و به ویژه آنهایی که مبتلا به MBDD تشخیص داده شده اند، از نظر تاریخی به عنوان جمعیت هدف و توجیه توسعه اولیه فناوری های تشخیص احساسات تعیین شده اند.
فصلی از کتاب پیشگام روزالیند پیکارد در سال 1995 “محاسبات عاطفی”، به عنوان مثال، بخشی به “کمک به افراد اوتیستیک” اختصاص داده شده است.
حدود یک دهه بعد، محققان دانشگاه کمبریج نیز “سمعک احساسی” را پیشنهاد کردند.
که به عنوان یک پروتز صورت برای کمک به اجتماعی شدن کودکان مبتلا به سندرم آسپرگر توصیف شد.
تا آنجا که من می دانم، بیشتر این کار که توسط صنعت فناوری گسترده تر انجام شده است، اکنون فراتر از این «بهانه های کمکی» و منفعت برای افرادی که به عنوان توجیه رشد اولیه آنها عمل می کند قابل اعتراض است.
امید من این است که محققان و سازندگان در توسعه یا عدم توسعه این فناوریها منتقد و دلسوز باشند.